The new wave of digitization induced by Industry 4.0 calls for ubiquitous and reliable connectivity to perform and automate industrial operations. 5G networks can afford the extreme requirements of heterogeneous vertical applications, but the lack of real data and realistic traffic statistics poses many challenges for the optimization and configuration of the network for industrial environments. In this paper, we investigate the network traffic data generated from a laser cutting machine deployed in a Trumpf factory in Germany. We analyze the traffic statistics, capture the dependencies between the internal states of the machine, and model the network traffic as a production state dependent stochastic process. The two-step model is proposed as follows: first, we model the production process as a multi-state semi-Markov process, then we learn the conditional distributions of the production state dependent packet interarrival time and packet size with generative models. We compare the performance of various generative models including variational autoencoder (VAE), conditional variational autoencoder (CVAE), and generative adversarial network (GAN). The numerical results show a good approximation of the traffic arrival statistics depending on the production state. Among all generative models, CVAE provides in general the best performance in terms of the smallest Kullback-Leibler divergence.
translated by 谷歌翻译
时间基础旨在找到目标视频时刻,该目标瞬间与未修剪视频中给定的句子查询相对应。但是,最近的作品发现现有方法遇到了严重的时间偏见问题。这些方法并不是根据训练集中查询的时间偏见过度依赖基于视觉文本语义对齐的目标矩位置。为此,本文提出了一个新颖的培训框架,用于接地模型,以使用洗牌视频解决时间偏见问题而不会失去接地精度。我们的框架介绍了两个辅助任务,即跨模式匹配和时间订单歧视,以促进接地模型训练。跨模式匹配任务利用了洗牌和原始视频之间的内容一致性迫使接地模型以挖掘视觉内容以匹配语义的查询。时间秩序歧视任务利用时间顺序的差异来加强对长期时间环境的理解。关于Charades-STA和活动网字幕的广泛实验证明了我们方法可以减轻对时间偏差的依赖并增强模型对不同时间分布的概括能力的有效性。代码可从https://github.com/haojc/shufflingvideosfortsg获得。
translated by 谷歌翻译
隐式辐射功能作为重建和渲染3D场景的照片真实观点的强大场景表示形式出现。但是,这些表示的编辑性差。另一方面,诸如多边形网格之类的显式表示允许易于编辑,但不适合重建动态的人头中的准确细节,例如精细的面部特征,头发,牙齿,牙齿和眼睛。在这项工作中,我们提出了神经参数化(NEP),这是一种混合表示,提供了隐式和显式方法的优势。 NEP能够进行照片真实的渲染,同时允许对场景的几何形状和外观进行细粒度编辑。我们首先通过将3D几何形状参数化为2D纹理空间来解开几何形状和外观。我们通过引入显式线性变形层来启用几何编辑性。变形由一组稀疏的密钥点控制,可以明确和直观地移位以编辑几何形状。对于外观,我们开发了一个混合2D纹理,该纹理由明确的纹理图组成,以易于编辑和隐式视图以及时间相关的残差,以建模时间和视图变化。我们将我们的方法与几个重建和编辑基线进行比较。结果表明,NEP在保持高编辑性的同时达到了几乎相同的渲染精度。
translated by 谷歌翻译
现有的文本识别方法通常需要大规模培训数据。由于缺乏带注释的真实图像,他们中的大多数依靠合成训练数据。但是,合成数据和真实数据之间存在域差距,这限制了文本识别模型的性能。最近的自我监督文本识别方法试图通过引入对比度学习来利用未标记的真实图像,这主要学习文本图像的歧视。受到人类学会通过阅读和写作识别文本的观察的启发,我们建议通过在我们的自我监督方法中整合对比度学习和掩盖图像建模来学习歧视和产生。采用对比学习分支来学习对文本图像的歧视,这模仿了人类的阅读行为。同时,首先引入了蒙版的图像建模,以了解文本识别,以了解文本图像的上下文生成,这类似于写作行为。实验结果表明,在不规则场景文本识别数据集上,我们的方法比以前的自我监督文本识别方法优于先前的自我监督文本识别方法。此外,我们提出的文本识别器超过了先前的最新文本识别方法,在11个基准测试中,平均5.3%,模型大小相似。我们还证明,我们的预培训模型可以轻松地应用于具有明显性能增益的其他文本相关任务。
translated by 谷歌翻译
为了支持行业4.0触觉和人机互动的应用,第六代(6G)需要一个完全自主,视觉和互动的新框架。在本文中,我们为专用网络计划服务提供了一个新颖的框架,提供了一种端到端解决方案,该解决方案从用户设备接收视觉和感官数据,重建3D网络环境并在服务器上执行网络计划,并可视化在用户设备显示上,具有增强现实(AR)的网络性能。该解决方案由三个关键的技术组件授权:1)基于视觉和传感器融合的3D环境重建,2)基于射线跟踪的无线电图生成和网络计划,以及3)实时摄像机启用AR-Empower的网络可视化重新定位。我们在德国的博世植物中进行了概念验证,并显示了优化天线位置的良好网络覆盖范围,并且在环境重建和摄像机重新定位中均高精度。我们还实现了实时AR支持的网络监视,每帧的端到端延迟约为32毫秒。
translated by 谷歌翻译
在大数据的时代,通过单数值分解的图像近似近似。但是,奇异值分解(SVD)仅用于订单两个数据,即矩阵。有必要将高阶输入变成矩阵或将其分解为一系列订单两个切片,以解决具有SVD的多光谱图像和视频等高阶数据。高阶奇异值分解(HOSVD)扩展了SVD,可以使用一些排名一的组件的总和近似高阶数据。我们考虑将HOSVD推广到有限维度的代数上的问题。该代数(称为T-Algebra)概括了复数。代数的元素(称为t-scalars)是固定大小的复数阵列。可以将矩阵和张量概括在T量标准上,然后扩展许多规范矩阵和张量算法,包括HOSVD,以获得更高的性能版本。 HOSVD的概括称为THOSVD。交替的算法可以进一步提高其近似多路数据的性能。 THOSVD还统一了广泛的主要组件分析算法。为了利用T-scalars进行近似图像利用广义算法的潜力,我们使用像素邻域策略将每个像素转换为“更深入”的T-Scalar。公开图像的实验表明,T型量表的广义算法,即ThoSVD,与其规范对应物进行了优惠。
translated by 谷歌翻译
由于其显着的合成质量,最近,神经辐射场(NERF)最近对3D场景重建和新颖的视图合成进行了相当大的关注。然而,由散焦或运动引起的图像模糊,这通常发生在野外的场景中,显着降低了其重建质量。为了解决这个问题,我们提出了DeBlur-nerf,这是一种可以从模糊输入恢复尖锐的nerf的第一种方法。我们采用逐合成方法来通过模拟模糊过程来重建模糊的视图,从而使NERF对模糊输入的鲁棒。该仿真的核心是一种新型可变形稀疏内核(DSK)模块,其通过在每个空间位置变形规范稀疏内核来模拟空间变形模糊内核。每个内核点的射线起源是共同优化的,受到物理模糊过程的启发。该模块作为MLP参数化,具有能够概括为各种模糊类型。联合优化NERF和DSK模块允许我们恢复尖锐的NERF。我们证明我们的方法可用于相机运动模糊和散焦模糊:真实场景中的两个最常见的模糊。合成和现实世界数据的评估结果表明,我们的方法优于几个基线。合成和真实数据集以及源代码将公开可用于促进未来的研究。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
我们在无限地平线马尔可夫决策过程中考虑批量(离线)策略学习问题。通过移动健康应用程序的推动,我们专注于学习最大化长期平均奖励的政策。我们为平均奖励提出了一款双重强大估算器,并表明它实现了半导体效率。此外,我们开发了一种优化算法来计算参数化随机策略类中的最佳策略。估计政策的履行是通过政策阶级的最佳平均奖励与估计政策的平均奖励之间的差异来衡量,我们建立了有限样本的遗憾保证。通过模拟研究和促进体育活动的移动健康研究的分析来说明该方法的性能。
translated by 谷歌翻译